专家混合(MOE)架构表明有希望导致改善多任务学习(MTL)的参数共享以及缩放高容量神经网络。最先进的MOE模型使用培训稀疏门来为每个输入示例选择专家的子集。概念上吸引人的同时,现有的稀疏栅极,如TOP-K并不顺利。缺乏平滑性可以在以梯度为基础的方法培训时导致收敛和统计性能问题。在本文中,我们基于新型二进制编码配方,开发DSelect-K:用于MOE的连续微分和稀疏的浇口。门可以使用诸如随机梯度下降的一阶方法进行培训,并提供对选择的专家数量的显式控制。我们展示了DSelect-K对合成和真实MTL数据集的有效性,最高可达128美元。我们的实验表明,DSelect-k可以在流行的Moe盖茨上实现统计上显着的预测和专家选择。值得注意的是,与Top-K相比,在现实世界的大规模推荐系统中,DSelect-K可实现预测性能超过22±22℃。我们提供DSelect-K的开源实现。
translated by 谷歌翻译